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融合 改进 UNet 和 迁移 学 习 的 棉花 根系 图 像 分 割 方法 


唐 


3. 河北 农业 大 学 农学 院 


摘 要 : 


1, E X, 于 秋 实 1， 


(1. 河北 农业 大 学 机 电工 程 学 院 ,河北 保定 071001, 中 国 ; 2. 河北 省 教育 考试 院 ,河北 石家庄 050091 ,中国 ; 


张 佳 黄 :, 刘 连 涛 3, RO de 


,河北 保定 071001 ,中 国 ) 


[目的 /意义 ] 根系 是 植物 组 成 的 重要 部 分 ， 其 生长 发 育 至 关 重 要 。 根 系 图 像 分 割 是 根系 表 型 分 析 的 重要 


方法 ， 受 限于 图 像 质 量 、 复 杂 土 壤 环 境 、 低 效 传统 方法 ， 根 系 图 像 分 割 存在 一 定 挑 战 。[ 方 法 ] 为 提高 根系 图 像 分 


制 的 准确 性 和 重 棒 性 ， 本 研究 以 UNet 模 型 为 基础 ， 提 出 了 一 种 多 尺度 特征 提取 根系 分 割 算法 ,并 结合 数据 增强 和 


迁移 学 习 进 一 步 提高 改进 UNet 模 型 的 泛 化 性 和 通用 性 。 
集 ， 


首先 ， 获 取 棉 花 根 系 单一 数据 集 和 开源 多 作物 混合 数据 


基于 单一 数据 集 的 消融 试验 测试 多 尺度 特征 提取 模块 (Conv_2+Add) 的 有 效 性 ， 与 UNet、PSPNet 、SegNet、 


DeeplabV3Plus 算法 对 比 验证 其 优势 。 基 于 混合 数据 集 验证 改进 算法 (UNet+Conv_2+Add) 在 迁移 学 习 的 优势 。 


[结果 和 讨论 ] UNet+rConv_2+Add 相 比 其 他 算法 (UNet, PSPNet, SegNet, DeeplabV3Plus), mloU, mRecall 和 根 
系 书 调和 平均 值 分 别 为 81.62% 86.90% 和 78.39%。UNettConv_2+Add 算 法 的 迁移 学 习 相 比 于 普通 训练 在 根系 的 
交 并 比 (Intersection over Union，IoU) 值 提 升 1.25%， 根 系 的 Recall 值 提升 1.79%， F, 调和 平均 值 提升 0.92%， 
模型 的 整体 收敛 速度 快 。[ 结 论 ] 本 研究 采用 的 多 尺度 特征 提取 策略 能 准确 、 高 效 地 分 割 根系 ， 为 作物 根系 表 型 研 


究 提供 重要 的 研究 基础 。 
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1 引 &8 


根系 作为 植物 和 外 界 环境 交换 的 顺 官 ， 包 括 代 
直 、 吸 收 、 矿 物 和 有 机 物 交 换 等 ， 地 上 部 植株 的 生 
长 也 受到 地 下 根系 影响 “”。 植 株 品 种 培育 改良 ， 
对 提高 作物 产量 和 养分 资源 利用 率 等 方面 具有 重要 
意义 ， 也 是 第 二 次 绿色 革命 的 重要 内 容 “。 由 于 土 
坏 的 遮蔽 性 和 根系 复杂 生长 状态 ， 根 系 表 型 获取 仍 
是 当前 研究 热点 。 
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高 的 物 次 人力， 挖掘 过 程 耗 时 很 长 ， 且 获取 的 根系 
上 会 造成 细小 的 根 段 缺失 ， 无 法 满足 当前 的 根系 表 
型 研究 。 随 着 表 型 技术 发 展 ， 根 系 表 型 获取 转向 依 
靠 视 觉 穿 透 效果 的 生长 介质 获取 根系 图 像 ， 主 要 方 
法 有 气 培 法 、 水 培 法 、 族 胶 培 养 法 和 纸 基 培养 法 
等 ”“， 但 是 透明 介质 方法 根系 观测 结果 与 实际 土壤 
观测 结果 差距 大 。 随 着 高 分 辨 率 成 像 设 备 的 普及 使 
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用 和 成 本 的 下 降 ， 基 于 成 像 装 置 土壤 根系 表 型 获取 
方法 能 够 较 好 地 还 原 根系 生长 状态 、 和 采集 速度 更 
快 、 成 像 分 辩 率 更 高 。 较 早 的 成 像 装 备 观测 方法 起 
源 “ 微 根 管 >“ 技术 ， 将 微 根 管 装置 深 埋 地 下 观测 
根系 结构 ， 该 技术 已 在 多 种 作物 上 得 到 应 用 。 但 是 


致 图 像 边 缘 细 节 缺 失 。2015 年 全 卷 积 神经 网 络 
(Fully Convolutional Networks，FCN) 的 提出 实现 
像素 级 分 类 ""。FCN 在 卷 积 神经 网 络 的 基础 上 ， 
增加 了 上 采样 和 跳跃 结构 实现 图 像 的 像素 级 分 割 并 
Jis HI PELE. Kamal 等 "基于 该 模型 实现 了 


装置 的 放置 位 置 会 干扰 根系 生长 ， 并 且 只 能 采集 到 
局 部 根系 图 像 。 随 着 探测 技术 在 医学 领域 中 应 用 ， 
一 些 学 者 将 医学 设备 应 用 到 根系 表 型 研究 中 ， ， 如 
穿 透 射线 成 像 法 X 射 线 计算 机 断层 扫描 (Xray 
Computed Tomography, XCT) 和 核磁 共振 成 像 
(Magnetic Resonance Imaging, MRI) “”。 但 这 些 
方法 无 法 精准 识别 细 根 ， 且 受到 土壤 含水 量 的 干 
扰 。 射 线 设 备 和 微 根 管 设备 使 用 成 本 大 、 维 护 成 本 
高 、 成 像 分 辨 率 普遍 低 。 近 年 来 数码 设备 成 像 法 得 
到 了 更 多 应 用 ， 数 码 装 置 相对 于 其 他 成 像 设备 成 本 
相对 低 ， 成 像 分 辨 率 可 以 调节 ， 得 到 根系 图 像 更 精 
确 。Hammac 等 "'" 使 用 数码 设备 实现 油菜 、 亚 麻 
和 扁豆 两 个 水 分 水 平 下 根 毛 发 育 特 征 。Mohamed 
SE 采用 了 扫描 设备 完成 了 对 核桃 树 根 的 扫描 ， 
且 实 验 组 前 期 设计 了 RhizoPot "' 装置 能 够 更 高 效 
获取 根系 图 像 。 获 取 原 位 根系 图 像 后 ， 需 要 提取 根 
系 表 型 特征 。 传 统 方 法 的 根系 识别 包括 人 工 描绘 、 
半自动 交互 识别 和 全 自动 国 值 分 制 。 人 工 描绘 存在 
识别 效率 低 、 工 作 量 大 、 结 果 误 差 高 等 问题 。 半 自 
动 交 互 识别 是 研究 者 依据 视觉 观察 ， 通 过 辅助 软件 
进行 图 像 识 别 。 虽 然 半 自动 交互 式 可 达到 较 高 精 
度 ， 但 过 于 依赖 观测 者 分 辨 根系 的 主观 能 力 和 上 自 吴 
经 验 ， 单 张 复杂 根系 图 像 分 割 需 4~5 hh， 效率 过 
低 ， 难 以 实现 高 通 量 原 位 根系 图 像 分 析 。 基 于 全 自 
动 立 值 分 割 的 图 像 处 理 方法 提高 了 根系 识别 效率 ， 
如 Digital Imaging of Root Traits (DIRT) |’, Gener- 
al Image Analysis of Roots (GiA Roots) '*, IJ-Rhi- 
zo | fll EZ-Rhizo "等 可 以 自动 识别 根系 ,但 容易 
受到 土壤 噪声 影响 ， 识 别 准确 率 低 。 基 于 深度 学 习 
的 语义 分 制 网 络 给 根系 识别 提供 了 更 好 的 方法 。 基 
于 语义 分 割 的 根系 识别 ， 通 过 反复 前 向 和 迭代 与 反 回 
传播 过 程 不 断 调 整 网 络 各 层 权 重 ， 提 取 多 尺度 像素 
特征 ， 实 现 土壤 背景 与 根 像素 的 二 值 化 分 离 。 一 般 
的 卷 积 神经 网 络 虽 可 区 分 根系 与 土壤 ， 但 网 络 局 限 
于 单一 尺度 预测 ， 无 法 处 理 根系 尺寸 变化 问题 ， 导 


杂 草 和 作物 的 分 割 。 但 FCN 存 在 处 理 结果 不 够 精细 
和 没有 考虑 像素 与 像素 间 关 系 等 问题 。SegNet |”! 
TE FON 的 基础 上 采用 对 称 的 编码 器 -解码 需 结 构 ， 
添加 了 非 线性 上 采样 ， 实 现 端 到 端 训 练 ， 训 练 结 果 
优 于 FCN。Wang 等 ^" 基于 SegNet 模 型 设计 了 高 通 
量 根系 分 析 软 件 SegRoot， 实 现 了 根系 与 土壤 的 区 
分 。PSPNet 是 基于 金字 塔 池 化 模块 实现 的 IU, XX 
合 多 感受 野 的 上 下 文 信息 ， 提 高 了 获取 全 局 信息 的 
能 力 。Zhang 等 ”基于 改进 PSPNet 实 现 农业 地 区 
分 割 。 谷 歌 公 司 提出 的 DeepLabV3plus 模 型 ,在 
V3 "* 基础 上 引入 了 编码 需 和 解码 器 结构 ， 并 使 用 
深度 可 分 离 卷 积 减少 模型 参数 量 、 提 高 准确 率 。 本 
研究 在 前 期 研究 中 基于 V3plus 网 络 ， 通 过 改进 上 采 
样 方 式 实现 了 根系 有 效 处 理 ””W。UNet 模 型 的 提 
出 用 来 解决 医学 领域 分 割 问题 。 根 系 类 似 人 体 
血管 组 织 ， 本 研究 通过 改进 UNet 模 型 来 实现 根系 
的 分 制 。 由 于 其 出 色 的 分 割 性 能 ， 该 模型 也 被 广泛 
应 用 到 其 他 领域 ， 如 城市 植被 提取 '”，、 地 表 有 覆盖 
WIR A 等 。 迁 移 学 习 是 利用 已 训练 的 模型 投入 
到 其 他 相关 领域 中 重新 训练 模型 参数 的 方法 。 基 于 
该 方法 能 够 减少 模型 训练 的 时 间 ， 增 加 模型 泛 化 能 
Jj 中 。 本 研究 通过 改进 UNet 模 型 来 实现 根系 识别 ， 
基于 单一 数据 集 和 混合 数据 集 的 数据 增强 和 迁移 学 
习 方 法 实现 根系 的 高 效 分 制 ， 提 高 改进 模型 泛 化 能 
力 ， 为 根系 表 型 分 析 提 供 新 的 方法 。 
2 试验 材料 

本 模型 采用 两 种 数据 集 进行 试验 。 单 一 数据 集 
是 基于 数码 扫描 设备 采集 的 析 花 原 位 根系 图 像 ， 混 
合 数据 集 为 网 络 公共 开 源 的 多 作物 微 根 管 根系 数 
据 集 。 


2.1 单一 数据 集 


单一 数据 集 获 取 位 于 中 国 河北 省 保定 市 河北 农 
业 大 学 实验 站 (38.85°N, 115.309E). HAREM 
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象 是 棉花 an AY KOS. P SE Sit HB s 
K836. Hide fe Wi WAR ARLE (RhizoPot) 进 
行 种 植 ， 该 装置 使 用 透明 亚克力 板 围 成 梯形 透明 根 
室 ， 两 侧 倾斜 角 与 地 面 呈 67.3"， 并 安装 数码 成 像 扫 
描 仪 (Epson PerceptionV39, Suwa, Japan), ， 除 梯 
形 两 侧 外 ， 周 围 用 黑色 遮蔽 纸 围 住 防止 阳光 对 根系 
产生 干扰 。RhizoPot 装置 竖 直 高 度 为 330 mm, E 
边 长 490 mm、 下 边 长 265 mm、 宽 度 205 mm， 容 
ASE 14.5 L。 扫 描 仪 装置 通过 Software Develop- 
(SDK) (Epson Scan SDK V10102_ 
20210510) 控制 连接 电脑 ， 一 台电 脑 可 同时 控制 多 
 RhizoPot E fr. KRI BRE EE EL Bro s d 
系 图 像 从 第 1 天 到 第 110 天 内 进行 连续 拍摄 ， 图 
像 采 集 像素 大 小 为 1200 dpi， 分 辨 率 像素 为 10,200X 
14,039， 图 像 的 深度 为 24 位 。 棉 花 根系 图 像 共 110 
张 ， 排 除 掉 图 像 中 包含 噪声 和 图 像 不 清晰 的 ， 剩 余 
100 张 。 共 拍摄 六 组 照片 ， 每 组 100 张 ， 共 600 张 。 
建立 数据 集 ， 在 获取 的 图 像 中 随机 选择 100 张 
进行 标注 。 图 像 标注 使 用 的 是 Adobe Photoshop 
CC2020 (Adobe Inc., CA, United 
States) 。 首 先 使 用 Adobe Photoshop 打开 图 像 ， 并 
建立 新 图 层 ， 使 用 套 索 工具 选择 要 标注 的 根系 ， 然 
后 使 用 油漆 桶 工具 为 选择 的 根系 填充 白色 。 重 复 上 
述 操作 直到 所 有 根系 标注 完成 ， 再 将 土壤 背景 填充 
为 黑色 ,最 后 保存 图 像 为 8 位 的 *.png 图 像 。 图 像 标 


ment Kit 


San Jose, 


(a) 原 始 图 像 


(b) 标 注 可 视 化 
图 2 单一 数据 集 棉花 局 部 根系 标注 示例 
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ae i 
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(b) £ 4248 BUR f& 
图 1 单一 数据 集 棉花 根系 图 像 获取 装置 
Fig. 1 Single dataset cotton root system image 


acquisition device 


注 示 例如 图 2 所 示 。 每 张 图 像 的 标注 时 间 约 3 h。 由 
于 训练 集 图片 的 分 辩 率 过 大 ， 本 研究 采用 滑 窗 方法 
分 割 为 分 辨 率 像素 为 768X768 的 小 图 训练 ， 不 足 的 
部 分 使 用 黑色 填充 。 分 割 后 的 数据 集 按照 7: 2 : 1 的 
比例 划分 为 训练 集 、 验 证 集 和 测试 集 ， 四 人 金 五 人 划 
分 后 数量 分 别 为 19,360、5531 和 2766 张 。 


(Cc) 实际 标注 


Fig. 2 Example of localized root annotation for cotton in a single dataset 


2.2 混合 数据 集 
混合 数据 集 为 公共 开源 的 微 根 管 数据 集 ， 该 数 


据 集 来 源 于 PRMI 论 文江 ， 数 据 集 网 址 为 https:/ga- 
torsense.github.io/PRMI/。 原 始 的 数据 集 包含 不 同时 
间 段 和 不 同 土壤 深度 的 棉花 、 木 瓜 、 花 生 、 芝 麻 、 
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向 日 获 5 种 作物 图 像 ， 且 该 数据 被 划分 为 训练 集 和 
测试 集 2 类 。 为 了 适用 于 本 试验 ,将 原始 的 训练 集 


重新 划分 为 训练 集 、 验 证 集 。 三 种 数据 集 详细 信息 
如 表 1 所 示 。 


表 1 开源 混合 数据 集 的 作物 种 类 、 像 素 大 小 及 包含 的 张 数 


Table 1 Crop types, pixel sizes, and number of sheets in open source mixed dataset 


数据 集 类 型 棉花 木瓜 花生 花生 芝麻 芝麻 [5] H 3€ 
分 辩 率 /px 736X552 736X552 640X480 736X552 640X 480 736 X 552 640 X 480 
训练 集 / 张 1271 282 10,087 11,485 1438 8637 2211 
验证 集 / 张 564 131 3413 3347 318 2625 722 
测试 集 / 张 577 133 3542 4793 404 3048 967 


2.3 数据 增强 


由 于 作物 生长 在 不 同 的 环境 中 ,采集 的 根系 图 
像 也 存在 差异 ， 如 土壤 颜色 差异 、 根 系 的 粗细 、 根 
系 的 生长 角度 ， 所 以 试验 采用 的 数据 增强 方法 可 以 
实现 样本 的 多 样 性 。 

试验 采用 四 种 图 像 处 理 方法 : 

(1) 改变 图 像 属 性 。 随 机 改变 图 像 的 亮度 ， 幅 
度 为 0.5~1.5 倍 ; 随机 变化 图 像 的 对 比 度 ， 幅 度 为 
0.5—1.5 4%; 随机 变化 图 像 的 饱和 度 di HE 7g 0.5— 
1.5 售 。 

(2) 图 像 随机 裁剪 。 随 机 裁剪 原始 图 像 的 某 一 
区 域 ， 裁 剪 的 范围 为 随机 高 或 宽 的 0.2~1 倍 ， 最 后 
将 裁剪 后 的 图 像 放 大 ， 分 辩 率 像素 为 S12X512。 

(3) 图 像 旋转 。 随 机 对 图 像 进 行 -90°~90° 的 
图 像 旋转 。 

(4) 图 像 翻 转 。 随 机 对 图 像 按 照 x 轴 或 y 轴 进 
行 翻转 。 

在 模型 训练 时 随机 读 取 训 练 数据 集 内 图 像 ， 读 
取 后 对 图 像 按 照 设 定 几率 开展 数据 增强 操作 。 四 种 
数据 增强 方法 几率 设置 为 0.3， 且 每 个 方法 都 互 不 
影响 。 读 取 图 像 时 程序 会 设置 随机 数 ， 当 随机 数 小 
于 0.3 时 图 像 才 会 进行 变化 。 使 用 该 方法 在 模型 每 
代 训 练 中 图 像 都 存在 差异 ， 使 得 样本 多 样 性 进一步 
增 大 。 

四 种 图 像 增 强 的 方法 示例 如 图 3 所 示 。 


3 研究 与 方法 


3.1 模型 结构 


UNet 与 其 他 的 卷 积 模型 相似 ， 采 用 U 型 编码 - 
解码 顺 结 构 ， 编 码 需 主要 通过 连续 的 卷 积 和 池 化 进 


(a) 原 始 图 像 (b) 改 变 图 像 属性 


(c) 图 像 翻转 (d) 图 像 旋转 


(e) 图 像 随机 裁剪 


图 3 模型 训练 的 原始 图 像 及 4 种 不 同 的 数据 增强 方法 结果 
Fig. 3 Original image of model training and the results of four 


different data enhancement methods 


行 特征 提取 ， 解 码 器 用 于 对 特征 图 的 信息 还 原 ， 恢 
复 特征 图 到 原 尺寸 大 小 。 改 进 后 的 模型 主要 在 编码 
器 和 解码 融 之 间 的 路 路 连接 添加 了 额外 的 提取 
模块 。 

UNet 编 码 絮 包含 五 屋 ， 前 四 层 是 由 卷 积 -最 大 
池 化 进行 特征 提取 并 下 采样 ， 然 后 保留 每 层 的 特征 
图 用 于 特征 融合 ， 编 码 需 最 后 一 层 只 包含 卷 积 层 。 
编码 融 每 层 的 特征 图 提取 计算 方法 如 公式 (1) 
所 示 。 
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C,= MP,(2 x (conv(c,))] 
e [1, 5]and i, e [1,4] (1) 
KP, Conv 表示 一 次 完整 卷 积 运算 ， 包 含 卷 
只 Batch Normalization VA— (5 fl ReLU WOS PAR; 
MP 表示 最 大 池 化 层 ， 且 只 作用 在 1~4 层 ; C, 表示 
每 层 的 输入 特征 图 ; C, 表 示 第 ; 层 的 输出 特征 图 。 
原始 的 UNet 模 型 在 结构 上 利用 下 采样 完成 不 
同 图 像 尺 寸 的 卷 积 特征 提取 ， 但 在 池 化 操作 时 难免 
会 造成 信息 损失 。 为 减少 信息 的 损失 ， 本 研究 提出 
的 多 尺度 图 像 特 征 提取 融合 模块 完成 细节 信息 弥补 。 
该 模块 主要 放置 于 整体 模型 的 中 间 三 层 。 首 先 对 原 
始 的 输出 图 像 进行 双 线 性 插值 得 到 三 种 尺寸 不 同 的 
图 像 (256X256 dpi, 128X128 dpi, 64X64 dpi), 
然后 通过 卷 积 提取 特征 图 并 将 其 与 相对 应 跳跃 连接 
层 的 特征 图 相 加 ， 然 后 与 上 采样 的 特征 图 拼接 完成 


对 细节 信息 的 弥补 。 多 尺度 特征 提取 的 计算 方法 如 
公式 (2) 所 示 。 

C,= Add (2 x (Conv(G.(C))). C.) ie[2,4] (2) 

其 中 ，C 表 示 原 始 的 图 像 ; 纪 ,表示 对 原始 网 像 
进行 不 同 尺度 双 线 性 插值 操作 ; 4 表示 对 两 种 特 
征 图 进行 加 操作 ; C, 表 示 模 块 输出 特征 图 。 

编码 器 层 和 多 尺度 图 像 特征 提取 融合 模块 计算 
完成 后 ， 巾 解码 需 完 成 融合 还 原 ， 解 码 需 每 层 特征 
图 融合 计算 见 公式 (3). 

C,-2 x ( Conv( Concat(uP(E,.), ê.) )) ie[1, 4] 

(3) 

HB, UP 7K LR FERAL; Concat 用 于 拼接 
特征 图 ; C,, 表 示 上 一 层 输出 特征 图 ; C, 表 示 本 层 
的 输出 特征 图 。 

模型 改进 后 的 整体 结构 如 图 4 所 示 。 
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图 4 改进 UNet 模 型 的 整体 结构 


Fig. 4 Overall structure of the improved UNet model 


3.2 研究 策略 


试验 基于 单一 数据 集 和 混合 数据 集 完 成 对 改进 
UNet 模 型 的 训练 和 预测 ， 采 用 数据 增强 、 模 型 改 
进 和 迁移 学 习 3 种 方法 提高 了 根系 的 分 割 能 力 和 模 
型 的 泛 化 能 

试验 的 主要 过 程 基于 单一 数据 集 选 择 改进 最 佳 
模型 ， 并 与 其 他 算法 对 比 验证 其 优势 ， 使 用 迁移 学 
习 和 混合 数据 集 进 一 步 提 高 模型 泛 化 能 力 ， 上 述 所 


有 模型 训练 过 程 中 全 都 采用 数据 增强 的 方法 ， 其 技 
术 路 线 如 图 5 所 示 。 

为 实现 根系 图 像 分 割 算法 训练 、 
本 研究 对 三 种 试验 提出 以 下 策略 。 

(1) 消融 实验 策略 。 卷 积 和 特征 融合 对 多 尺度 
言 息 提取 至 关 重 要 ， 为 改善 原始 模型 在 编码 希 层 下 
采样 的 信息 损失 ， 本 研究 对 原始 模型 设计 了 几 种 不 
同 的 多 义 度 图 像 特征 提取 融合 方式 ， 其 结构 主要 包 
括 图 像 的 特征 提取 方式 和 特征 融合 方式 两 方面 。 在 


测试 和 对 比 ， 
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单一 数据 集 上 | 对比 选择 模型 H — 数据 增强 特征 提取 上 改进 包含 : 注意 力 机 制 (Convolutional 
xm Block Attention Module, CBAM) 、 深 度 分 离 卷 积 

(DP Conv) 和 普通 卷 积 (Conv) ， 在 特征 融合 方式 

混 各 数据 集 。。 H aesa H 预 训练 权重 ， 数 据 增强 上 分 为 拼接 (Concat) 和 相 加 (Add)。 主 要 的 对 比 

根系 识别 策略 如 表 2 所 示 ，Conv 2+Add 是 最 佳 策略 。 消 融 


AS 根系 分 割 算 法 研究 技术 路 线 


Fig. 5 Technical route for the root segmentation algorithm 


实验 是 基于 单一 数据 集 ， 训 练 过 程 使 用 数据 增强 ， 
模型 采用 随机 权重 加 载 。 


表 2 消融 实验 的 模型 改进 策略 及 解释 


Table 2 Model improvement strategies and explanations for ablation experiments 


模型 改进 策略 模型 解释 
Conv_1+Concat 进行 一 次 完整 卷 积 计算 ,并 将 其 上 采样 和 每 层 编码 器 中 特征 图 拼接 
Conv_2+Concat 进行 两 次 完整 卷 积 计算 ,并 将 其 上 采样 和 每 层 编码 器 中 特征 图 拼接 
DP Conv+Concat 进行 两 次 深度 可 分 离 卷 积 计算 ,并 将 其 上 采样 和 每 层 编码 器 中 特征 图 拼接 
CBAM+Concat 进行 完整 卷 积 后 再 进行 注意 力 机 制 计算 ,并 将 其 上 采样 和 每 层 编码 器 中 特征 图 拼接 
Conv_1+Add 进行 一 次 完整 卷 积 计算 ,并 将 其 与 跳跃 连接 的 特征 图 相 加 并 和 上 采样 进行 拼接 
Conv_2+Add (本 研究 ) 进行 两 次 完整 卷 积 计算 ,并 将 其 与 跳跃 连接 的 特征 图 相 加 并 和 上 采样 进行 拼接 
DP Conv+Add 进行 两 次 深度 可 分 离 卷 积 计算 ,并 将 其 与 跳跃 连接 的 特征 图 相 加 并 和 上 采样 进行 拼接 
CBAM+Add 进行 完整 卷 积 后 ,进行 注意 力 机 制 计算 ,并 将 其 与 跳跃 连接 的 特征 图 相 加 并 和 上 采样 进行 拼接 


(2) 对 比试 验 策略 。 对 比试 验 验 证 改进 最 佳 算 
法 优越 性 ， 对 比 模型 有 PSPNet、SegNet、Deep- 
labV3Plus， 模 型 基于 单一 数据 集训 练 ， 训 练 过 程 使 
用 数据 增强 ， 模 型 采用 随机 权重 加 载 ， 未 使 用 迁移 
学 习 。 

(3) 迁移 学 习 策 略 。 迁 移 学 习 是 进一步 提高 模 
型 泛 化 能 力 和 根系 分 割 能 力 ， 训 练 模型 有 原始 UN- 
et 和 改进 最 佳 算法 ， 基 于 混合 数据 集训 练 ， 训 练 过 
程 使 用 数据 增强 ， 模 型 采用 单一 数据 集 预 训练 权重 
加 载 。 


3.3 研究 条 件 


上 述 所 有 模型 的 训练 及 推理 都 基于 Ubun- 
tu22.04 系 统 完 成 ， 系 统 的 配置 的 处 理 需 为 intel i5- 
12400F (2.5 GHz) 和 32GRAM， 显 卡 型 号 为 GTX 
3080Ti， 显 存 为 12 GB. WARE JH AY TREES 2] EZR 
Ze Pytorch11.6. 

在 训练 时 为 保证 公平 性 ， 所 有 模型 的 训练 采用 
相同 的 训练 环境 ， 模 型 的 超 参数 设置 也 相同 。 训 练 
全 部 采用 Adaptive Moment Estimation with decou- 
pled weight decay (ADAMW) 优化 器 ， 参 数 betas 


分 别 为 0.9 和 0.999， 初 始 的 学 习 率 设置 为 0.0001， 
学 习 率 衰减 策略 采用 余弦 退火 学 习 率 衰减 策略 
(Cosine Annealing LR) ， 模 型 训练 共 100 代 。 


3.4 模型 的 评估 


为 了 验证 模型 性 能 ， 需 要 借助 评估 指标 对 模型 
进行 评估 。 在 本 研究 中 根系 和 土壤 背景 相当 于 对 图 
像 的 逐 像素 分 类 ， 因 此 需要 借助 混 消 和 矩阵 来 统计 分 
类 结果 和 实际 值 ， 从 而 进一步 获取 多 种 评估 指标 。 
本 人 研究 采用 4 种 评估 指标 为 准确 率 (Precision), A 
回 率 (Recall) 、 交 并 比 (intersection over Union) 


和 FF， 计 算 方 法 如 公式 (4) ~ (7) 所 示 。 
TP 


Precision = TP + FP (4) 
TP 

Recall = TP + FN (5) 
TP 

loU = TP + EN + FP (6) 

p= 2 X Precision X Recall (7) 


Precision + Recall 


其 中 ，TP 表 示 正 确 预测 为 根 的 根 像素 数 ;，FP 
表示 被 预测 为 根 的 背景 像素 数 ; FN 表示 被 预测 为 
背景 的 根 像素 数 ; TN 表示 正确 预测 为 背景 的 背景 
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像素 数 。IoU 可 以 评估 像素 分 类 结果 与 实际 值 之 间 
的 相似 性 。Precision、Recall 用 于 验证 像素 分 类 的 
正确 率 ，F 则 是 Precision、Recall 的 调和 平均 值 。 
四 种 评估 标准 的 取 值 范围 都 在 0 一 1 之 间 。 


4 结果 与 分 析 


4.1 消融 实验 


为 验证 改进 模型 中 各 部 分 对 模型 的 性 能 影响 ， 
对 卷 积 方式 和 融合 方式 进行 消融 实验 ， 获 取 各 种 改 
进 模 型 评估 指标 值 。 每 个 模型 都 使 用 相同 的 试验 参 
数 进行 训练 ， 训 练 结 束 后 使 用 测试 集 对 模型 进行 评 


估 ， 获 取 各 项 评估 指标 。 消 融 实验 评估 指标 结果 如 
表 3 所 示 。 对 比 原始 模型 发 现 ，Conv_2+Add 综 合 
评估 指标 效果 最 佳 ， 平 均 交 并 比 (mean Intersec- 
tion over Union, mloU) , 225 4 [HB] (mean Re- 
call, mRecall) MIRR F (AGIA 81.6296, 86.90% 
和 78.38%， 平 均 准确 率 (mean Precision, mPreci- 
sion) 值 为 91.12% 相 比 于 原始 模型 有 所 降低 。 但 鉴 
F Precision 和 Recall 是 一 对 相对 矛盾 的 指标 ， 根 据 
局 调 和 平均 值 的 结果 改进 后 模型 还 是 相 比 于 原始 模 
型 有 所 提升 ， 而 且 根 系 的 IoU 值 相 比 于 其 他 改进 模 


-a 


型 最 高 。 


表 3 消融 实验 各 种 改进 模型 的 评估 指标 


Table 3 Evaluation Indicators for various improved models in ablation experiments 


评估 指标 UNet Conv 1+Conoat Conv 2+Con- DP Conv+Con- CBAM+Con- Conv l+ Conv 2+ DP Conv CBA Add 
cat cat cat Add Add +Add 

R IoU/% 63.71 55.61 63.83 62.81 63.71 63.39 64.44 63.00 63.90 
B IoU/% 98.79 98.56 98.79 98.76 98.79 98.77 98.79 98.75 98.79 
ImIoU/% 81.25 77.08 81.31 80.79 81.25 81.08 81.62 80.88 81.35 
R Recall/% 72.39 61.68 72.68 71.18 72.22 72.53 74.25 72.36 72.89 
B Recall/% 99.60 99.68 99.59 99.61 99.60 99.57 99.55 99.56 99.56 
mRecall/% 85.99 80.68 86.13 85.39 85.91 86.07 86.90 85.96 86.24 
R Precision/% 84.16 84.95 83.98 84.23 84.39 83.36 83.00 82.96 83.82 
B Precision/% 99.18 98.87 99.19 99.15 99.18 99.19 99.24 99.18 99.20 
mPrecision/% 91.67 91.91 91.59 91.69 91.78 91.27 91.12 91.07 91.51 
RF /% 77.83 71.47 77.92 77.16 77.83 21:59 78.38 71.30 77.97 
BF/% 99.39 99.27 99.39 99.38 99.39 99.38 99.39 99.37 99.38 


TE: R 代 表 根 系 ; BARRE 

由 图 6 可 以 看 出 ， 模 型 全 部 使 用 随机 梯度 下 降 
的 优化 算法 ， 由 于 其 高 效 的 计算 能 力 ， 使 得 各 模型 
在 训练 时 损失 达到 收敛 的 时 间 差 距 不 大 (DP 
Conv+Add 除 外 ) ， 都 在 训练 到 10 代 之 后 模型 损失 
趋 于 平稳 。 

在 对 比 Concat 和 Add 两 种 方式 上 的 图 像 特征 提 
取 发 现 ， 使 用 双 层 卷 积 得 到 的 指标 最 好 ， 相 比 于 单 
层 卷 积 方法 ， 双 层 卷 积 能 够 提取 更 多 的 特征 图 信 
息 ， 类 似 于 网 络 深 度 ， 卷 积 层 越 深 效果 越 好 ,但 增 
加 深度 会 增加 模型 训练 的 时 间 。 除 此 外 ， 相 比 双 层 
卷 积 ， 深 度 可 分 离 卷 积 和 注意 力 机 制 对 特征 图 的 语 
义 提取 能 力 强 ， 但 对 低 维 细节 信息 提取 差 ， 因 此 试 
验 中 双 层 卷 积 模型 细节 处 理 效 果 高 于 深度 可 分 离 卷 


积 和 注意 力 机 制 。 在 对 比特 征 融合 方式 上 ， 特 征 图 
相 加 相 比 于 特征 图 拼接 效果 更 好 ， 当 使 用 拼接 时 会 
在 解码 器 卷 积 中 增加 通道 维度 致使 特征 提取 效果 
差 ， 而 特征 图 相 加 是 在 编码 器 特征 图 基础 上 将 提取 
的 多 尺度 特征 图 进行 加 和 ， 能 够 加 强 原始 细节 特 
征 ， 弥 补 信息 缺失 。 经 过 消融 实验 验证 ， 最 佳 模型 
是 UNettConv_2+Add 的 改进 算法 。 
4.2 对 比试 验 

本 研究 对 比 了 PSPNet、SegNet、DeeplabV3plus 
和 改进 模型 (UNet-Conv 2-Add), ， 每 个 模型 都 使 


用 相同 配置 训练 100 epochs 后 ， 所 有 模型 损失 均 达 
到 收敛 ， 并 基于 测试 集 测 试 模型 训练 效果 ， 获 取 各 
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图 6 根系 图 像 分 割 消融 实验 各 种 改进 模型 的 损失 
Fig. 6 Loss of various improved models in ablation experiments of root image segmentation 
项 评估 指标 。 模 型 指标 数值 对 比 结果 如 表 4 所 示 。 mRecall AAR A F, (A 2x 3| ON 81.62%, 86.90% 和 


本 人 研究 提出 的 改进 模型 评估 指标 最 好 ，mloU、 


78.38% 0 


表 4 对 比试 验 中 各 对 比 模型 评估 指标 


Table 4 Evaluation indicators of each comparative model in comparative experiments 


估计 指标 DeeplabV3Plus PSPNet SegNet 改进 模型 (UNet+Conv 2-Add) 
Root IoU/% 64.00 54.33 63.08 64.44 
Background IoU/% 98.79 98.53 98.79 98.79 
mloU/% 81.39 76.43 89.93 81.62 
Root Recall/% 73.53 59.51 73.86 74.25 
Background Recall/% 99.47 99.72 99.55 99.55 
mRecall/% 86.50 79.61 86.71 86.90 
Root Precision/?o 81.18 86.17 82.87 83.00 
Background Precision/% 99.31 98.81 99.23 99.24 
mPrecision/% 90.24 92.49 91.05 91.12 
Root F,/% TIT 70.40 78.11 78.38 
Background F /?6 99.39 99.26 99.39 99.39 


TE: R 代 表 根系 ; B 代 表 背 景 

对 比 实际 分 割 图 像 ， 改 进 最 佳 模型 在 一 些 细小 
的 根系 分 割 更 加 精确 ， 如 根系 日 且 短 的 根 (图 CT) 
蓝 色 框 ); 在 根 与 根 的 交界 人 处 土壤 孔 际 的 识别 也 更 
精确 (图 (7) 红色 框 ) 这 是 因为 增加 了 多 尺度 特 
征 提取 模块 使 得 根系 识别 更 加 精细 。 除 此 之 外 ， 对 
于 颜色 深 且 与 土壤 颗粒 对 比 度 低 的 根 ， 改 进 模 型 仅 
能 实现 根 的 识别 且 识 别 稀 政 (图 (7) 黄色 框 )， 其 


余 模 TII 站 上下文 信息 息 更 


dt im 


， 得 到 的 根系 更 长 ， 改 
程度 牺牲 了 上 下 文 


信息 提取 能 力 ， 致 使 根系 在 对 比 度 低 的 情况 下 ， 根 
系 分 割 语义 理解 力 不 强 。 对 比 图 像 如 图 7 所 示 ， 细 


节 图 像 如 图 8 所 示 。 


为 了 进一步 评估 改进 模型 和 其 他 卷 积 模型 分 钊 


性 能 ， 在 测试 集中 随机 选择 25 张 图 像 进 


行 根系 表 
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图 7 对 比试 验 的 各 模型 分 割 结果 图 像 


Fig. 7 Images of segmentation results of various models in comparative experiments 


型 指标 测定 。 测 定 的 四 种 指标 为 总 根 长 OP 
径 、 表 面积 和 容量 。 测 试 使 用 软件 为 Rhizovi- 
sion 2 。 各 模型 的 定量 指标 结果 如 表 5 所 示 。 在 平 
均 直 径 和 表面 积 两 个 指标 上 改进 模型 与 人 工 标注 指 
标 差 值 最 小 ， 总 根 长 和 容量 两 个 指标 上 SegNet 的 结 
果 最 接近 人 工 标注 。 

综合 各 项 指标 ， UNet-Conv 2+Add 算 法 效果 
优势 大 。 对 比 PSPNet、DeeplabV3Plus 算法 ， 模 型 
结构 中 均 使 用 了 额外 的 多 尺度 的 特征 提取 方法 ， 
SegNet 则 使 用 对 称 的 编码 解码 结构 ， 改 进 算法 则 是 
结合 两 种 结构 使 得 根系 分 割 更 精确 ， 但 在 遮蔽 根系 
识别 上 一 定 程度 上 牺牲 信息 提取 能 力 。 


4.3 迁移 学 习 


单一 数据 集 和 混合 数据 集 两 者 都 是 关于 根系 的 
图 像 集合 ， 区 别 在 于 混合 数据 包含 根系 图 像 种 类 更 
加 丰富 和 多 样 ， 适 用 于 迁移 学 习 的 方法 。 两 种 对 比 
模型 为 UNet 原 始 模型 和 UNet 改 进 最 佳 模型 (UN- 
ettConv_2+Add)， 对 比 的 两 种 训练 方法 为 普通 训 
练 〈 基 于 混合 数据 集 ， 采 用 数据 增强 方法 ， 未 使 用 
单一 数据 集训 练 的 权重 ) 和 迁移 学 习 (基于 混合 数 
据 集 ， 采 用 数据 增强 方法 ， 使 用 单一 数据 集 预 训练 
权重 )。 其 训练 损失 如 图 9 所 示 ， 使 用 迁移 学 习 的 
初代 损失 值 相 比 于 普通 训练 更 小 ， 这 是 由 于 使 用 了 
预 训练 权重 的 模型 在 训练 时 只 需要 参数 微调 就 可 以 


un 


RS 根系 表 型 测定 的 四 种 表 型 数据 指标 


Table 5 Four phenotypic data indicators for root phenotype determination 


方法 总 根 长 /px 平均 直径 /px 容量 /px 表面 积 /px 
手工 标注 281,884.9367 16.4984 86,505,316.2980 13,216,115.0220 
改进 模型 UNet+tConv_2+Add 236,648.6779 16.2529 90,592,259.8600 13,275,772.0500 
PSPNet 186,125.1123 14.1353 61,695,138.3499 9,377,353.0364 
SegNet 240,006.0245 15.7012 85,858,025.2235 12,975,598.3651 
DeeplabV3Plus 225,178.9484 15.6688 78,377,863.8983 12,039,045.5469 
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图 8 对 比试 验 的 各 模型 对 比 结果 细节 小 图 


Fig. 8 Detailed comparison results of various models in comparative experiments 


达到 很 好 的 拟 合 ， 但 普通 训练 的 随机 初始 化 权重 使 
得 拟 合 更 加 缓慢 。 除 此 外 ， 两 种 训练 方式 在 整个 训 
练 周 期 上 的 损失 值 变化 也 存在 差异 ， 迁 移 学 习 相 比 

普通 训练 收敛 更 快 ， 且 整体 损失 值 更 低 。 

基于 测试 集 得 到 了 两 种 训练 方法 的 各 项 评估 指 
标 ， 结 果 如 表 6 所 示 。 对 比 结果 发 现 基 于 迁移 学 习 
的 两 种 模型 都 优 于 普通 训练 方法 (BR Precision 外 ) , 
其 中 改进 模型 的 迁移 学 习 相 比 于 普通 训练 的 根系 
IoU #2 Ft 1.25%, d AK Recall EFH 1.7996, MA FAA 
HEFL 0.92%; 原始 模型 的 迁移 学 习 相 比 于 普通 训练 
在 根系 IoU 提升 0.29%、 根 系 Recall 提 升 0.83%、 根 
系 巴 值 提 升 0.21%， 结 合 两 者 提升 发 现 迁 移 学 习 对 
本 研究 提出 的 改进 模型 提升 幅度 大 、 训 练 效果 好 。 
而 在 迁移 学 习 方 式 的 不 同 模 型 评估 指标 上 ， 本 研究 
提出 的 改进 模型 相 比 原始 模型 在 根系 IoU 提升 
1.36%、 根 系 的 Recall 提 升 1.99%， 根 系 的 五 提升 


1.01%; 普通 训练 方式 下 改进 模型 相 比 原始 模型 在 
根系 IoU 提升 0.4%、 根 系 的 Recall 提升 1.03%， 根 
系 的 已 提升 0.30%， 训 练 结果 与 消融 试验 结果 相 拟 
fr. 证 明 迁 移 学 习 下 的 改进 模型 根系 分 割 更 精确 。 

改进 模型 (UNet-Conv 2-Add) 迁移 学 习 训练 
后 图 像 分 割 结果 如 图 10 所 示 。 模 型 能 够 很 好 地 识 
别 多 种 土壤 不 同 深 度 多 作物 根系 ， 虽然 在 细小 根系 
处 存在 误差 ， 但 长 根 的 识别 相 比 人 工 标注 更 加 
平滑 。 


传统 算法 局 限于 图 像 的 质量 和 噪声 、 土 壤 环 境 
复杂 和 算法 的 泛 化 能 力 ， 深 度 学 习 模 型 能 够 很 好 地 
百代 传统 方法 实现 根系 的 高 效 、 上 自动 提取 。 因 此 本 
研究 基于 实验 室 采 集 的 棉花 根系 数据 集 和 开源 多 作 
物 微 根 管 数据 集 两 种 数据 集 为 试验 对 象 ， 开 展 根系 
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图 9 改进 模型 (UNetrConv 2+Add) 和 原始 模型 在 普通 训练 和 迁移 学 习 下 的 损失 


Fig. 9 Comparison of the loss of improved model(UNet+Conv_ 2+Add) and the original model under ordinary training and 


transfer learning 


表 6 改进 模型 (UNet+Conv_2+Add) 和 原始 模型 在 普通 训 
练 和 迁移 学 习 下 各 项 评估 指标 


Table 6 Evaluation indicators of improved model(UNett+Conv_ 
2+Add) and original model under ordinary training and 


transfer learning 


UNet 普 通 UNet 迁移 ”改进 模型 ”改进 模型 


SES 训练 ”学 习 普通 训练 “迁移 学 习 
R IoU/% 62.93 63.22 63.33 64.58 
B IoU/% 98.75 98.75 98.76 98.79 
mloU/% 80.84 80.99 81.40 81.68 
R Recall/% 71.27 72.10 72.30 74.09 
B Recall/% 99.60 99.58 99.58 99.56 
mRecall/% 85.44 85.84 85.94 86.83 
R Precision/% 84.32 83.69 83.62 83.41 
B Precision/% 99.14 99.17 99.17 99.23 
mPrecision/% 91.73 91.43 91.40 91.32 
RF/% 77.25 77.46 77.55 78.47 
BF /% 99.37 99.37 99.37 99.39 


注 : R 代 表 根 系 ; B 代 REE 


分 割 工作 ， 主 要 研究 结果 如 下 。 

(1) 提出 一 种 基于 UNet 的 改进 模型 ， 加 入 了 
多 尺度 图 像 提取 融合 模块 实现 不 同 尺寸 图 像 细 广 特 
征 提取 ， 提 高 模型 识别 根系 的 能 力 。 并 通过 消融 实 
验 验 证 该 模块 的 有 效 性 。 改 进 后 的 模型 (UNet- 


Conv_2+Add) 相 比 其 他 模型 和 其 他 改进 算法 得 到 
的 综合 评价 指标 较 好 ，mIoU 、mRecall MIR A F 1E 
分 别 为 81.62%、86.90% 和 78.39%， 相 比 于 原始 
UNet 的 mIoU、mRecall 和 根系 书 值 提升 0.37%、 
0.99% 和 0.56%， 证 明 改进 模型 具有 优势 性 。 

(2) 试验 时 采用 数据 增强 方式 CARGA. defe. 
翻转 、 改 变 图 像 的 属性 四 种 增强 方法 ) 实现 数据 的 
多 样 性 扩充 ， 基 于 两 种 数据 集 完 成 迁移 学 习 。 通 过 
改进 后 的 损失 值 和 各 项 评估 指标 对 比 验证 迁移 学 习 
的 优越 性 ， 根 系 IoU 提升 1.25%、 根 系 Recall 提 升 
1.79%、 根 系 矛 值 提 升 0.92%。 结 果 证 明 采 用 迁移 
学 习 的 方法 收敛 速度 快 ， 能 够 进一步 增加 模型 的 分 
SERE 

研究 结果 证 明 改 进 后 模型 不 仅 优 于 原始 模型 ， 
并 且 在 采用 迁移 学 习 后 增加 模型 泛 化 能 力 。 但 是 模 
型 还 存在 不 足 之 处 。 一 是 模型 的 参数 巨大 ， 对 于 模 
型 部 署 存在 限制 ， 后 续 应 该 考虑 简化 模型 。 二 是 样 
本 类 型 种 类 数量 问题 ， 后 续 会 收集 其 他 作物 的 根系 
图 像 进一步 验证 模型 有 效 性 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 
研究 成 果 有 关 的 利益 冲突 。 
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图 10 改进 模型 (UNetHConv 2+Add) 的 迁移 学 习 分 割 结果 
Fig. 10 Transfer learning segmentation results for improved models (UNet+Conv_2+Add) 
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Abstract: 


[Objective] The root system is an important component of plant composition, and its growth and development are crucial for plants. 


Root image segmentation is an important method for obtaining root phenotype information and analyzing root growth patterns. Re- 


search on root image segmentation still faces difficulties, because of the noise and image quality limitations, the intricate and diverse 


soil environment, and the ineffectiveness of conventional techniques. This paper proposed a multi-scale feature extraction root seg- 


mentation algorithm that combined data augmentation and transfer learning to enhance the generalization and universality of the root 


image segmentation models in order to increase the speed, accuracy, and resilience of root image segmentation. 


[Methods] Firstly, the experimental datasets were divided into a single dataset and a mixed dataset. The single dataset acquisition was 


obtained from the experimental station of Hebei Agricultural University in Baoding city. Additionally, a self-made RhizoPot device 
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was used to collect images with a resolution pixels of 10,200 14,039, resulting in a total of 600 images. In this experiment, 100 
sheets were randomly selected to be manually labeled using Adobe Photoshop CC2020 and segmented into resolution pixels of 768 X 
768, and divided into training, validation, and test sets according to 7:2:1. To increase the number of experimental samples, an open 
source multi-crop mixed dataset was obtained in the network as a supplement, and it was reclassified into training, validation, and test- 
ing sets. The model was trained using the data augmentation strategy, which involved performing data augmentation operations at a 
set probability of 0.3 during the image reading phase, and each method did not affect the other. When the probability was less than 0.3, 
changes would be made to the image. Specific data augmentation methods included changing image attributes, randomly cropping, ro- 
tating, and flipping those images. The UNet structure was improved by designing eight different multi-scale image feature extraction 
modules. The module structure mainly included two aspects: Image convolution and feature fusion. The convolution improvement in- 
cluded convolutional block attention module (CBAM), depthwise separable convolution (DP Conv), and convolution (Conv). In terms 
of feature fusion methods, improvements could be divided into concatenation and addition. Subsequently, ablation tests were conduct- 
ed based on a single dataset, data augmentation, and random loading of model weights, and the optimal multi-scale feature extraction 
module was selected and compared with the original UNet. Similarly, a single dataset, data augmentation, and random loading of mod- 
el weights were used to compare and validate the advantages of the improved model with the PSPNet, SegNet, and DeeplabV3Plus al- 
gorithms. The improved model used pre-trained weights from a single dataset to load and train the model based on mixed datasets and 
data augmentation, further improving the model's generalization ability and root segmentation ability. 

[Results and Discussions] The results of the ablation tests indicated that Conv 2+Add was the best improved algorithm. Compared 
to the original UNet, the mIoU, mRecall, and root F, values of the model increased by 0.37%, 0.99%, and 0.56%, respectively. And, 
comparative experiments indicate Unett+Conv_2+Add model was superior to the PSPNet, SegNet, and DeeplabV3Plus models, with 
the best evaluation results. And the values of mIoU, mRecall, and the harmonic average of root F, were 81.62%, 86.90%, and 77.97%, 
respectively. The actual segmented images obtained by the improved model were more finely processed at the root boundary com- 
pared to other models. However, for roots with deep color and low contrast with soil particles, the improved model could only achieve 
root recognition and the recognition was sparse, sacrificing a certain amount of information extraction ability. This study used the root 
phenotype evaluation software Rhizovision to analyze the root images of the UnettConv_2+Add improved model, PSPNet, SegNet, 
and DeeplabV3Plu, respectively, to obtain the values of the four root phenotypes (total root length, average diameter, surface area, and 
capacity), and the results showed that the average diameter and surface area indicator values of the improved model, Unet-Conv 2- 
Add had the smallest differences from the manually labeled indicator values and the SegNet indicator values for the two indicators. To- 
tal root length and volume were the closest to those of the manual labeling. The results of transfer learning experiments proved that 
compared with ordinary training, the transfer training of the improved model UNet+Conv_2+Add increased the IoU value of the root 
system by 1.25%. The Recall value of the root system was increased by 1.79%, and the harmonic average value of F, was increased 
by 0.92%. Moreover, the overall convergence speed of the model was fast. Compared with regular training, the transfer training of the 
original UNet improved the root IoU by 0.29%, the root Recall by 0.83%, and the root F, value by 0.21%, which indirectly confirmed 
the effectiveness of transfer learning. 

[Conclusions] The multi-scale feature extraction strategy proposed in this study can accurately and efficiently segment roots, and fur- 
ther improve the model's generalization ability using transfer learning methods, providing an important research foundation for crop 


root phenotype research. 
Key words: deep learning; root image segmentation; UNet; multi-scale characteristics; transfer learning 


Foundation Items: Top-notch Talent Plan Program of the Education Department of Hebei Province (BJ2021058); Central Guiding Lo- 
cal Science and Technology Development Fund Projects(236Z7402G); State Key Laboratory of North China Crop Improvement and 
Regulation(NCCIR2021ZZ-23) 


(登陆 www.smartag.netcn 免费 获取 电子 版 全 文 ) 


